Celem projektu jest zbadanie własności estymatorów Metody Największej Wiarygodności parametrów rozkładu Beta.
Rozkład Beta to rodzina rozkładów prawdopodobieństw zdefiniowanych na przedziale [0,1]. Posiada on dwa dodatnie parametry rzeczywiste odpowiadające za kształt rozkładu:
Lista użytych przez nas funkcji:
rozklady <- function(ilosc, parametr1, parametr2) {
funkcja_wiar <- function(parametry, dane) {
-sum(dbeta(dane, shape1 = parametry[1], shape2 = parametry[2], log = TRUE))
}
tabelka <- data.frame(shape1 = numeric(), shape2 = numeric())
for(i in 1:300) {
przykladowe <- rbeta(ilosc, parametr1, parametr2)
parametry <- c(parametr1, parametr2)
wynik_optim <- optim(par = parametry, fn = funkcja_wiar, dane = przykladowe, lower = c(0.1,0.1), upper = c(20,20), method = "L-BFGS-B")
tabelka <- rbind(tabelka, wynik_optim$par)
}
colnames(tabelka) <- c("shape1", "shape2")
tabelka <- tabelka %>%
mutate(`Liczba danych` = as.numeric(ilosc),
roznica_s1 = abs(parametr1 - shape1),
roznica_s2 = abs(parametr2 - shape2))
return(tabelka)
}statystyki <- function(dane, nr) {
dane %>%
group_by(`Liczba danych`) %>%
summarize(
"Średnia" = round(mean(.data[[nr]]), 5),
"Odchylenie std." = round(sd(.data[[nr]]), 5),
"Skośność" = round(skew(.data[[nr]]), 5),
"Kurtoza" = round(kurtosi(.data[[nr]]), 5),
"Minimum" = round(min(.data[[nr]]), 5),
"Maximum" = round(max(.data[[nr]]), 5),
"Rozkład normalny" = ifelse(shapiro.test(.data[[nr]])$p.value > 0.05, "Tak", "Nie"))
}W pierwszym wariancie analizie poddamy estymator dla rozkładu beta o parametrach \(\alpha\)=0.5 oraz \(\beta\)=0.5.
W poniższych tabelach oraz wykresach przedstawiono zachowanie estymatorów parametru alfa w zależności od liczby danych. Jest przedstawiony również wynik testu Shapiro-Wilka, który sprawdza, czy rozkład estymatorów jest rozkładem normalnym.
rozklady5_05_05 <- rozklady(5, 0.5, 0.5)
rozklady20_05_05 <- rozklady(20, 0.5, 0.5)
rozklady50_05_05 <- rozklady(50, 0.5, 0.5)
rozklady100_05_05 <- rozklady(100, 0.5, 0.5)
rozklady500_05_05 <- rozklady(500, 0.5, 0.5)
rozklady1000_05_05 <- rozklady(1000, 0.5, 0.5)
wyniki1 <- rbind(rozklady5_05_05, rozklady20_05_05, rozklady50_05_05,
rozklady100_05_05, rozklady500_05_05, rozklady1000_05_05)
statystyki(wyniki1, "shape1")W poniższych tabelach oraz wykresach przedstawiono zachowanie estymatorów parametru beta w zależności od liczby danych. Jest przedstawiony również wynik testu Shapiro-Wilka, który sprawdza, czy rozkład estymatorów jest rozkładem normalnym.
wyniki1 %>%
ggplot() +
geom_density(aes(x = shape2),
color = "darkred",
fill = "red",
alpha = 0.5) +
facet_wrap(~ `Liczba danych`, scales = "free") +
theme_light() +
theme(plot.title = element_text(hjust = 0.5),
strip.background = element_rect(fill = "gray30"),
strip.text = element_text(color = "white"),
panel.spacing = unit(1, "lines"),
axis.text.x = element_text(angle = 45, hjust = 1)) +
labs(title = "Wykres gęstości\nw zależności od liczby danych",
x = "Wartości",
y = "Gęstość")Jak możemy zaobserwować wraz ze wzrostem ilości danych, średnia zbliża się do wartości oczekiwanej estymatora \(\alpha\) równej 0.5 oraz \(\beta\) równej 0.5. Rzuca się jedynie w oczy średnia dla estymatora z 5 danymi, ponieważ znacząco odbiega od pozostałych wartości.
Z tabeli dla różnic względem rzecziwistych wartości możemy jasno wywnioskować, że im więcej danych weźmiemy, tym większą dokładność estymatora otrzymamy, ponieważ różnice pomiędzy wartością estymowaną, a oczekiwaną są coraz mniejsze.
W drugim wariancie analizie poddamy estymator dla rozkładu beta o parametrach \(\alpha\)=5 oraz \(\beta\)=1.
Można zauważyć że zwiększenie liczby danych przekłada się na bardziej stabilne, precyzyjne i symetryczne estymacje parametrów alpha i beta w rozkładzie beta. Zarówno rozkład estymacji alpha, jak i beta, dla większych prób, wydaje się zbliżać do rozkładu normalnego. Obserwuje się poprawę dokładności oszacowania oraz bardziej zbliżony do normalnego rozkład estymacji parametrów alpha i beta w miarę zwiększania liczby danych.
Z analizy przedstawionej tabeli wynika, że zwiększanie liczby danych wpływa korzystnie na precyzję naszego estymatora. Wraz ze wzrostem ilości danych, obserwujemy tendencję do zmniejszania się rozbieżności między estymowanymi parametrami, a ich rzeczywistymi wartościami.
W kolejnym wariancie analizie poddamy estymator dla rozkładu beta o parametrach \(\alpha\)=2 oraz \(\beta\)=2.
Dla większych prób danych obserwuje się poprawę dokładności oszacowania zarówno dla parametru kształtu alpha, jak i beta w rozkładzie beta. Średnie estymacje maleją, co wskazuje na bardziej stabilne i skoncentrowane wyniki. Jednocześnie odchylenie standardowe maleje, co świadczy o zmniejszającej się zmienności estymacji. Skośność i kurtoza również maleją, sugerując mniejszy wpływ asymetrii i ekstremalnych ogonów na rozkład estymacji.
Zarówno wykresy pudełkowe, jak i gęstości dla większych prób wykazują mniejszą zmienność estymacji oraz zbliżenie rozkładu estymacji do rozkładu normalnego. Wartości mediany są bardziej skoncentrowane, a skrzynie na wykresach pudełkowych są węższe dla większych prób.
Podsumowując, zwiększenie liczby danych przekłada się na bardziej stabilne, precyzyjne i symetryczne estymacje parametrów alpha i beta w rozkładzie beta. Oba rozkłady estymacji, zarówno dla alpha, jak i beta, dla większych prób wydają się zbliżać do rozkładu normalnego.
W ostatnim wariancie analizie poddamy estymator dla rozkładu beta o parametrach \(\alpha\)=2 oraz \(\beta\)=5.
Podobnie jak w poprzednim wypadku (alpha = 2, beta = 2), dla obu parametrów (alpha = 2, beta = 5) zwiększenie liczby danych przekłada się na bardziej stabilne, precyzyjne i symetryczne estymacje. Zarówno rozkład estymacji alpha, jak i beta, dla większych prób, wydaje się zbliżać do rozkładu normalnego. Skoncentrowanie się rozkładów wokół wartości średnich, zmniejszenie zmienności estymacji i bardziej stabilne mediany na wykresach pudełkowych potwierdzają poprawę dokładności oszacowania parametrów rozkładu beta.
Ogólnie rzecz biorąc, dokładność oszacowania parametrów rozkładu beta rośnie w miarę zwiększania liczby danych. Wartości estymatorów stają się bardziej stabilne i zbliżają się do rzeczywistych wartości parametrów dla większych prób. Dla małych prób (np. 5) estymatory mogą wykazywać większą zmienność i odchylenie od rzeczywistych wartości. W miarę wzrostu liczby danych, rozkład oszacowań parametrów wydaje się bardziej przypominać rozkład normalny, co potwierdzają wyniki naszych badań.
Patrząc na wyniki dla poszczególnych wartości parametrów, możemy przede wszystkim stwierdzić, że dla danych pochodzących z rozkładu z większymi wartościami parametrów maleje dokładność oszacowanych parametrów względem rzeczywistych wartości. Przykładowo dla rozkładów gdzie estymujemy parametr Beta w przypadku rzeczywistej wartości równej 5 największa dokładność wynosi 0.18 podczas gdy dla wartości 0.5 wynosi 0.016. Podobne wnioski możemy wyciągnąć patrząc na poszczególne wartości odchyleń standardowych - im większe rzeczywiste wartości parametrów, tym bardziej średnio odchylają się wartości.